Libraries

Library aufrufen das wir nutzen wollen

Registered S3 method overwritten by 'dplyr':
  method           from
  print.rowwise_df     
-- Attaching packages --------------------------------------- tidyverse 1.2.1 --
v ggplot2 3.2.1     v purrr   0.3.2
v tibble  2.1.3     v dplyr   0.8.3
v tidyr   1.0.0     v stringr 1.4.0
v readr   1.3.1     v forcats 0.4.0
-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()
Le chargement a n攼㸹cessit攼㸹 le package : RPostgreSQL

Connection

Datanbankverbindung aufbauen

Grabbing the data

Abrufen von daten um damit umzugehen

Registered S3 methods overwritten by 'dbplyr':
  method         from
  print.tbl_lazy     
  print.tbl_sql      

Control missing data (NA)

Kontrolle ob es fehlende werte gibt in der tabelle t_aisles

Aisle
[1] 0
[1] 0
Departments
[1] 0
[1] 0
Orders
[1] 206209
Kunden die zum ersten mal einkaufen

Es fehlen 206209 werte von 3421083 für days_since_prior (6.0275942%.

Es könnten first-time Kunden sein, also die Kunden die ihre erste Bestellung machen

Products
[1] 0
[1] 0

Jetzt wollen wir graphisch das verhältnis von Bio- zu nicht Bio-Produkte aufzeichnen

Verhältnis Bio/Nicht-bio in departments & aisles

Wir möchten auch Visualizieren was die Verhältnisse sind, zwischen die Offerte an Bio-produkte in den verschiedene Departments und Aisles.

Man kann sehen das die Anzahl an Bio-Produkte in den Departments sehr swach ist, im gegensatz zu den “normalen” Produkten.

Man kann auch hier sehen das der Verhältniss zwischen Bio-Produkten und nicht Bio_Produkten niedrig ist in spezifische aisles. Es gibt sogar aisles wo es keinlerei Bio-Produkten gibt. Dafür aber gibt es andere aisles wo der Verhältnis viel grösser ist, z.b. Baby Food Formulas und Fresh Vegetables.

Determine most bought products

Wir möchten wissen welche Produkte am meisten eingekauft werden und ob diese Organic oder nicht sind

Stammkunden analyse

Ein ziele wäre die Stammkunden erkennen und sehen ob sie verschieden einkaufen, z.b eine höhere Anzahl an Produkten pro Bestellung kaufen. Daher haben wir der durschnitt an Bestellungen berechnet sowie die Quartilen: Ausser dem Visualizieren wir mit einen Plot die Anzahl kunden die Mehrmals bei uns eingekauft haben.

[1] 17.15486
  0%  25%  50%  75% 100% 
   1    5   11   23  100 

Wir wollen auch den Durschnitt von Bestellung von jeden Kunden Berechnen.

Wir definieren Stammkunden die die mindestens einmal alle 7 Tagen bei uns einkaufen (Alle 7 Tage, im diagramm 0 bis 6)

Die totale anzahl an stammkunden ist 33374 von 206209. Dies entsprecht 16.1845506% von aller Kunden die je im laden waren

[1] 223593
[1] 1384617
[1] 16.14836

Die Anzahl an transactionen das von Stammkunden geamcht wurden entsprechen 223593 von 1384617. Das entspricht 16.1483645% aller transactionen.

A priori Algorithmus

# close the connection (don't forget to cleanup)
dbDisconnect(con)
dbUnloadDriver(drv)
Error in dbUnloadDriver(drv) : object 'drv' not found
---
title: "Bio-Sparte"
output: html_notebook
editor_options: 
  chunk_output_type: inline
---

### Libraries
Library aufrufen das wir nutzen wollen

```{r setup, echo=FALSE}
#install.packages("RPostgreSQL")
#install.packages("tidyverse")

library(DBI)
library(tidyverse)
require("RPostgreSQL")
```

### Connection
Datanbankverbindung aufbauen

```{r, echo=FALSE}
DB_HOST='86.119.36.94' #or 86.119.36.94 or server2053.cs.technik.fhnw.ch
DB_PORT = 5432
DB_DBNAME = 'warenkorb_db' # or 'warenkorb_db'
DB_USERNAME = 'db_user' 
DB_PASSWORD = 'db_user_pw'

con <- DBI::dbConnect(odbc::odbc(),
                      Driver   = "PostgreSQL Unicode(x64)",
                      Server   = DB_HOST,
                      Database = DB_DBNAME,
                      UID      = DB_USERNAME,
                      PWD      = DB_PASSWORD,
                      Port     = DB_PORT,
											encoding = "latin1" )
```

### Grabbing the data
Abrufen von daten um damit umzugehen

```{r, echo=FALSE}
t_products <- tbl(con, "product")
t_products <- as.data.frame(t_products)

t_aisles <- tbl(con, "aisle")
t_aisles <- as.data.frame(t_aisles)

t_departments <- tbl(con, "department")
t_departments <- as.data.frame(t_departments)

t_orders <- tbl(con, "orders")
t_orders <- as.data.frame(t_orders)

#t_orders_prior <- tbl(con, "orders_product_prior")
#t_orders_prior <- as.data.frame("t_orders_prior")

t_orders_train <- tbl(con, "orders_product_train")
t_orders_train <- as.data.frame(t_orders_train)


#t_products <- dbGetQuery(con,  "SELECT * From product")
#t_aisles <- dbGetQuery(con,  "SELECT * From aisle")
#t_departments <- dbGetQuery(con,  "SELECT * From department")
#t_orders <- dbGetQuery(con,  "SELECT * From orders")
#t_orders_prior <- dbGetQuery(con,  "SELECT * From orders_product_prior")
#t_orders_train <- dbGetQuery(con,  "SELECT * From orders_product_train")
```

#### Control missing data (NA)
Kontrolle ob es fehlende werte gibt in der tabelle t_aisles

##### Aisle
```{r, echo=FALSE}
#RETURNS INTEGER, SLOWER
t_aisles %>% 
	pull(aisle) %>% 
	is.na() %>% 
	sum()

#RETURNS LIST, FASTER
#t_aisles %>%
#  filter(is.na(aisle)) %>%
#	count()

t_aisles %>% 
	pull(aisle_id) %>% 
	is.na() %>% 
	sum()

#only works with tabellen
#t_aisles %>% 
#	mutate(aisle_id_NA = is.na(aisle_id)) %>% 
#	summarise(aisle_id_NA_sum = sum(aisle_id_NA))
```

##### Departments
```{r, echo=FALSE}
t_departments %>%
  pull(department) %>% 
	is.na() %>% 
	sum()

t_departments %>%
  pull(department_id) %>% 
	is.na() %>% 
	sum()
```

##### Orders
```{r, echo=FALSE}
t_orders %>%
  pull(orders_id) %>% 
	is.na() %>% 
	sum()

t_orders %>%
  pull(user_id) %>% 
	is.na() %>% 
	sum()

t_orders %>%
  pull(eval_set) %>% 
	is.na() %>% 
	sum()

t_orders %>%
  pull(order_number) %>% 
	is.na() %>% 
	sum()

t_orders %>%
  pull(order_dow) %>% 
	is.na() %>% 
	sum()

t_orders %>%
  pull(order_hour_of_day) %>% 
	is.na() %>% 
	sum()

missing_prior_orders <- t_orders %>% 
	pull(days_since_prior_order) %>% 
	is.na() %>% 
	sum()

#x <- t_orders %>% 
#	summarize(n())
#x <- tally(t_orders) #geht auch

#x <- as.data.frame(x)
#number_orders_tot <- as.integer(x[[1]])

missing_prior_prozent <- round(100*missing_prior_orders/number_orders_tot, 10)
```

###### Kunden die zum ersten mal einkaufen
Es fehlen `r missing_prior_orders` werte von `r number_orders_tot` für days_since_prior (`r missing_prior_prozent`%. 

Es könnten first-time Kunden sein, also die Kunden die ihre erste Bestellung machen

##### Products
```{r, echo=FALSE}
t_products %>%
  pull(product_id) %>% 
	is.na() %>% 
	sum()

t_products %>%
  pull(product_name) %>% 
	is.na() %>% 
	sum()
```

Jetzt wollen wir graphisch das verhältnis von Bio- zu nicht Bio-Produkte aufzeichnen

```{r, echo=FALSE}
org_notorg <- t_products %>%
  mutate(organic = str_detect(tolower(product_name), pattern = "organic")) %>%
  group_by(organic) %>%
  count() %>%
  mutate(n = as.integer(n))

ggplot(org_notorg) +
  geom_col(aes(x = organic, y = n))
```


### Verhältnis Bio/Nicht-bio in departments & aisles

Wir möchten auch Visualizieren was die Verhältnisse sind, zwischen die Offerte an Bio-produkte in den verschiedene Departments und Aisles. 

```{r, fig.height = 7, echo=FALSE}
Verhalt_dep <- full_join(t_products, t_aisles, "aisle_id") %>%
	full_join(t_departments, "department_id") %>%
	select(-c(aisle_id, department_id, product_id)) %>%
  mutate(organic = str_detect(tolower(product_name), pattern = "organic")) %>%
  group_by(department, organic) %>%
	count(name = "anzahl_produkte") %>%
  mutate(anzahl_produkte = as.integer(anzahl_produkte)) %>%
	arrange(-anzahl_produkte)

#Verhalt_dep

ggplot(Verhalt_dep) +
  geom_col(aes(x = reorder(department, anzahl_produkte) ,y = anzahl_produkte, fill = organic))  +
  coord_flip()
```

Man kann sehen das die Anzahl an Bio-Produkte in den Departments sehr swach ist, im gegensatz zu den "normalen"  Produkten. 

```{r, fig.height = 17, echo=FALSE}
Verhalt_aisle <- full_join(t_products, t_aisles, "aisle_id") %>%
	full_join(t_departments, "department_id") %>%
	select(-c(aisle_id, department_id, product_id)) %>%
  mutate(organic = str_detect(tolower(product_name), pattern = "organic")) %>%
  group_by(aisle, organic) %>%
	count(name = "anzahl_produkte") %>%
  mutate(anzahl_produkte = as.integer(anzahl_produkte)) %>%
  ungroup() %>%
	arrange(-anzahl_produkte)

#Verhalt_aisle

ggplot(Verhalt_aisle) +
  geom_col(aes(x = reorder(as.factor(aisle), anzahl_produkte), y = anzahl_produkte, fill = organic)) +
  coord_flip()

#verhalt_aisle save or as csv
#save(Verhalt_aisle, file = "Verhalt_aisle.RData")
#write.csv(Verhalt_aisle,'Verhalt_aisle.csv')
```

Man kann auch hier sehen das der Verhältniss zwischen Bio-Produkten und nicht Bio_Produkten niedrig ist in spezifische aisles. Es gibt sogar aisles wo es keinlerei Bio-Produkten gibt. Dafür aber gibt es andere aisles wo der Verhältnis viel grösser ist, z.b. Baby Food Formulas und Fresh Vegetables. 

```{r, fig.height = 18, echo=FALSE, results="hide"}
Verhalt_aisle_norg <- full_join(t_products, t_aisles, "aisle_id") %>%
	full_join(t_departments, "department_id") %>%
	select(-c(aisle_id, department_id, product_id)) %>%
	mutate(organic = str_detect(tolower(product_name), pattern = "organic")) %>%
  group_by(aisle, organic) %>%
	count(name = "anzahl_produkte") %>%
  mutate(anzahl_produkte = as.integer(anzahl_produkte)) %>%
	filter(organic == FALSE)

Verhalt_aisle_org <- full_join(t_products, t_aisles, "aisle_id") %>%
	full_join(t_departments, "department_id") %>%
	select(-c(aisle_id, department_id, product_id)) %>%
	mutate(organic = str_detect(tolower(product_name), pattern = "organic")) %>%
  group_by(aisle, organic) %>%
	count(name = "anzahl_produkte") %>%
  mutate(anzahl_produkte = as.integer(anzahl_produkte)) %>%
	filter(organic == TRUE)

New_Verhalt_aisle <- full_join(Verhalt_aisle_org, Verhalt_aisle_norg, "aisle") %>%
	mutate(anzahl_produkte_org = anzahl_produkte.x) %>%
	mutate(anzahl_produkte_norg = anzahl_produkte.y) %>%
	ungroup() %>%
	select(c(aisle, anzahl_produkte_org, anzahl_produkte_norg)) %>%
	mutate(anzahl_produkte_org = as.integer(anzahl_produkte_org))

New_Verhalt_aisle[is.na(New_Verhalt_aisle)] <- as.integer(0)

New_Verhalt_aisle

ggplot(New_Verhalt_aisle) +
  geom_col(aes(x = reorder(as.factor(aisle), anzahl_produkte_org + anzahl_produkte_norg), y = anzahl_produkte_org + anzahl_produkte_norg)) +
	#scale_colour_manual(values = c("anzahl_produkte_org" = "#E08214", "anzahl_produkte_norg" = "#A08214"))+
	
	#https://stackoverflow.com/questions/6919025/how-to-assign-colors-to-categorical-variables-in-ggplot2-that-have-stable-mappin
	
  coord_flip()
```


### Determine most bought products

Wir möchten wissen welche Produkte am meisten eingekauft werden und ob diese Organic oder nicht sind

```{r, echo=FALSE}
most_bought_all <- full_join(t_products, t_orders_train, "product_id") %>%
	select(-c(aisle_id, department_id, index, add_to_cart_order, reordered)) %>%
	mutate(organic = str_detect(tolower(product_name), pattern = "organic")) %>%
  group_by(organic) %>%
	count(product_name) %>%
  mutate(n = as.integer(n)) %>%
	arrange(-n) %>%
	head(30)

most_bought_all

ggplot(most_bought_all) +
  geom_col(aes(x = reorder(product_name, n), y = n, fill = organic)) +
  coord_flip()
```


```{r, echo=FALSE, results="hide"}
# Determine most bought organic products

most_bought_org <- full_join(t_products, t_orders_train, "product_id") %>%
	select(-c(aisle_id, department_id, index, add_to_cart_order, reordered)) %>%
  mutate(organic = str_detect(tolower(product_name), pattern = "organic")) %>%
  mutate(organic = as.integer(organic)) %>%
  filter(organic == 1) %>%
	count(product_name) %>%
  mutate(n = as.integer(n))  %>%
	arrange(-n) %>%
	head(30)

most_bought_org

ggplot(most_bought_org) +
  geom_col(aes(x = reorder(product_name, n), y = n)) +
  coord_flip()
```

```{r, echo=FALSE, echo=FALSE, results="hide"}
#Most bought non-organic products

most_bought_nonorg <- full_join(t_products, t_orders_train, "product_id") %>%
	select(-c(aisle_id, department_id, index, add_to_cart_order, reordered)) %>%
  mutate(organic = str_detect(tolower(product_name), pattern = "organic")) %>%
  mutate(organic = as.integer(organic)) %>%
  filter(organic == 0) %>%
	count(product_name) %>%
  mutate(n = as.integer(n))  %>%
	arrange(-n) %>%
	head(30)

most_bought_nonorg

ggplot(most_bought_nonorg) +
  geom_col(aes(x = reorder(product_name, n), y = n)) +
  coord_flip()
```



## Stammkunden analyse

Ein ziele wäre die Stammkunden erkennen und sehen ob sie verschieden einkaufen, z.b eine höhere Anzahl an Produkten pro Bestellung kaufen. Daher haben wir der durschnitt an Bestellungen berechnet sowie die Quartilen: Ausser dem Visualizieren wir mit einen Plot die Anzahl kunden die Mehrmals bei uns eingekauft haben. 

```{r, echo=FALSE}
order_number_range_client <- t_orders %>% 
  group_by(orders_id) %>%
  summarise(nr_of_orders = last(order_number)) %>%
	count(nr_of_orders)

order_range_client <- t_orders %>% 
  group_by(orders_id) %>%
  summarise(nr_of_orders = last(order_number))

order_number_range_client
#order_range_client

ggplot(data = order_number_range_client) + 
  geom_col(mapping = aes(x = nr_of_orders, y = n), width=0.9, fill = "#FF9999") +
  xlab("nr_of_orders") + ylab("Nr of clients") +
	coord_cartesian(xlim = c(0,50)) +
  ggtitle("Number of clients with same order count") 

mean_range_clients_size <- mean(order_range_client$nr_of_orders)
quantile_range_clients_size <- quantile(order_range_client$nr_of_orders)

mean_range_clients_size
quantile_range_clients_size
```

Wir wollen auch den Durschnitt von Bestellung von jeden Kunden Berechnen. 

```{r, echo=FALSE}
order_freq <- t_orders %>% 
  group_by(user_id) %>%
	na.omit %>%
	mutate(mean_freq = mean(days_since_prior_order)) %>%
	summarise(mean_freq = last(mean_freq)) %>%
	mutate(mean_freq = as.integer(mean_freq)) 
	
#order_freq

ggplot(data = order_freq) + 
  geom_bar(mapping = aes(x = mean_freq), width = 0.9, fill = "#FF9999") +
  xlab("clients buy every n days") + ylab("Nr of clients") +
  ggtitle("Average frequency of days since last order")

#Maixmale anzahl tage zwischen einkäufe
max_days_since_last_for_stamm <- 7
```

Wir definieren Stammkunden die die mindestens einmal alle `r max_days_since_last_for_stamm` Tagen bei uns einkaufen (Alle `r max_days_since_last_for_stamm` Tage, im diagramm 0 bis `r max_days_since_last_for_stamm-1`)

```{r, echo=FALSE}
Anzahl_stammkunden <- order_freq %>%
	filter(mean_freq <= max_days_since_last_for_stamm) %>%
	count()
Tot_kunden <- order_freq %>%
	count()

Anzahl_stammkunden <- Anzahl_stammkunden$n
Tot_kunden <- Tot_kunden$n
Prozent_stamm <- 100*Anzahl_stammkunden/Tot_kunden
```

Die totale anzahl an stammkunden ist `r Anzahl_stammkunden` von `r Tot_kunden`. Dies entsprecht `r Prozent_stamm`% von  aller Kunden die je im laden waren

```{r, echo=FALSE}
#Create a new table with Order_id and nr_of_items per order
items_per_order <- t_orders_train %>% 
  group_by(orders_id) %>%
  summarise(nr_of_items = last(add_to_cart_order)) %>%
	arrange(orders_id)

#items_per_order

#count the total number of bought items
tot_num_transactions <- items_per_order %>%
	select(nr_of_items) %>%
	sum()

#join items_per_order table and order_freq over t_orders table
frankenstein <- left_join(order_freq, t_orders, "user_id") %>%
	left_join(items_per_order, "orders_id") %>%
	na.omit() %>%
	select(-c(eval_set, order_dow, order_hour_of_day, order_number, days_since_prior_order)) %>%
	filter(mean_freq <= max_days_since_last_for_stamm) %>%
	group_by(nr_of_items)

#resulting table is 
#frankenstein

ggplot(data = frankenstein) + 
  geom_bar(mapping = aes(x = nr_of_items), width = 0.9, fill = "#FF9999") +
  xlab("Number of items per client") + ylab("Nr of clients")

#count the toal number of bought items for stammkunden
Num_of_transactions_stamm <- frankenstein %>%
	select(nr_of_items) %>%
	sum()

#Num_of_transactions_stamm
#tot_num_transactions

Perzent_trans_stamm <- 100*Num_of_transactions_stamm/tot_num_transactions
#Perzent_trans_stamm
```
Die Anzahl an transactionen das von Stammkunden geamcht wurden entsprechen `r Num_of_transactions_stamm` von `r tot_num_transactions`. Das entspricht `r Perzent_trans_stamm`% aller transactionen. 


## A priori Algorithmus



```{r}
# close the connection (don't forget to cleanup)
dbDisconnect(con)
dbUnloadDriver(drv)
```



